3.12.2. Методы сжатия речи.

         При передаче речи по цифровым каналам связи, будь то сотовая или Интернет телефония, самый важный вопрос - это сколько информации (число бит в единицу времени) придется передавать по каналам, чтобы снабдить пользователя качественной голосовой связью. Ответ на него в каком-то смысле определяет стоимость и качество предоставляемых пользователям услуг и аппаратуры, емкость и масштабируемость сети передачи данных и многое другое.
        Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги. Очевидно, что только начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов операторы связи имеют достаточную (для развития и своего, и рынка) прибыль. В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали конкурентными по сравнению с проводной аналоговой, а при переходе к кодекам речи с скоростями порядка 2,4 кбит/с и ниже, цена минуты междугородного разговора может снизиться еще больше.
        Вместе с тем, качество звучания сжатой речи, что в сотовой, что в Интернет-телефонии, еще не очень высокое. Некоторые абоненты ( кто имеет такой выбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п., и все это из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания.
        В компьютерной телефонии снижение качества, помимо кодеков речи, связано с заметным запаздыванием сигнала и ошибкам при сборке пакетов. Эта проблема связана с пропускной способность компьютерных сетей, которая возрастает настолько быстро, что в ближайшей перспективе сетевая задержка снизится в несколько раз и дефекты сборки пакетов будут маловероятны или исчезнут. И тогда и у пользователей, и у операторов на первое место могут встать высокие требования именно к низкоскоростным кодекам речи.
         Как уже отмечалось речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.
         Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Более того, в те времена, когда время ожидания заказанного разговора составляло десятки часов, экономические ограничения привели к установке на трансконтинентальных линиях США и атлантическом кабеле так называемой аппаратуры J2, каналы которой имели еще меньшую полосу 0,3-1,7 кГц. Такая аппаратура первое время работала и на линии Москва-Владивосток. Качество ее каналов едва достигало двух баллов MOS, но решающим оказалось двукратное увеличение числа телефонных соединений. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными.
        Для совместимости по полосе с существующими аналоговыми сетями, в цифровой телефонии отсчеты аналоговой речи берут согласно теореме Котельникова с частотой 8 кГц, т.е. не меньше двух отсчетов на 1 Гц полосы. Вместе с тем, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. Впрочем, разработки успешно ведутся и уже разработаны универсальные кодеки для компьютерной телефонии и мультимедиа, способные качественно передавать не только речь, но и музыку. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с. При этом оценка качества по критерию MOS может быть выше 4,5 балла.
         Как известно, озвученная речь образуется с помощью звуковых связок человека. Скорость их периодических колебаний определяет так называемую частоту основного тона (ОТ), вырабатываемый так называемым "объемным резонатором" голосового тракта, который формирует также спектральную окраску речи, или другими словами, ее формантную структуру. Голосовой тракт называет еще синтезирующим фильтром, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за ОТ (возбуждение фильтра) и голосовой тракт (формантная структура сигнала). Все известные алгоритмы решают как правило один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие, а отрезки глухой речи при моделировании заменить спектрально окрашенным шумом.